Рекомендация тарифов

В вашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы (из проекта курса «Статистический анализ данных»). Нужно построить модель для задачи классификации, которая выберет подходящий тариф. Предобработка данных не понадобится — вы её уже сделали.

Постройте модель с максимально большим значением accuracy. Чтобы сдать проект успешно, нужно довести долю правильных ответов по крайней мере до 0.75. Проверьте accuracy на тестовой выборке самостоятельно.

Откройте и изучите файл

Загрузили датасет, просмотрели набор данных, данные уже подготовлены, нету пропусков, и ошибок в типах данных.Провели анализ корреляции парметров. Можем приступать к работе с моделями. Так как парметр звонки и минуты сильно звязаны в модели будем использовать только минуты.

Разбейте данные на выборки

Для начала определим, что у насбудет признаками, а что целью. В нашем случае цель-это тариф, а остальные столбцы - признаки.

Разделили выборки на валидационную, тестовую и обучающую, примерно в отношении 1:1:3.

Исследуйте модели

Рассмотрели три модели:

Лучший результать accuracy показала модель случайного леса с такими гиперпараметрами, как количество деревьев - 4, глубина деревьев - 5.

Проверьте модель на тестовой выборке

Проверили на тестовой выборке лучшую модель, показатель чуть ниже, чем на валидационной, но результат по-прежнему хороший, больше заданного.

(бонус) Проверьте модели на адекватность

Для проверки на адекватность, загрузили в модель наш датасет целиком, результат выше, чем на тестовой выборке.